Постановка задачи: Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей. Построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.

В наличии имеется очень много признаков, для начала проведем корреляционный анализ и выделим признаки, которые имеют коэффициент корреляции с зависимой переменной больше .4 по модулю. В итоге выделяются следующие переменные:

##  [1] "population"          "numbUrban"           "NumUnderPov"        
##  [4] "NumKidsBornNeverMar" "NumImmig"            "HousVacant"         
##  [7] "NumInShelters"       "NumStreet"           "LemasSwornFT"       
## [10] "LemasSwFTFieldOps"   "LemasTotalReq"       "OfficAssgnDrugUnits"
## [13] "PctUsePubTrans"      "PolicCars"           "PolicOperBudg"

Попарные диаграммы рассеяния полученных в ходе предыдущего анализа признаков

Заметим, что переменные population, numbUrban, numUnderPoverty, NumKidsBornNeverMarried имеют коэффициент корреляции близкий к единицы, поэтому откажемся от этих переменных, оставляя только переменную population. LemasSwornFt и LemasSwFieldsOps имеют коэффициент корреляции 1, оставим только LemasSwFieldsOps. Так же поступим с переменными NumStreet и NumInShelters, оставляя только переменную NumInShelters.

В итоге имеем следующий набор переменных

##  [1] "dependentVar"        "population"          "NumImmig"           
##  [4] "HousVacant"          "NumInShelters"       "LemasTotalReq"      
##  [7] "LemasSwFTFieldOps"   "OfficAssgnDrugUnits" "PctUsePubTrans"     
## [10] "PolicCars"           "PolicOperBudg"

Отношение \(\frac{max(y)}{min(y)}\) = 1.874410^{4} поэтому целесообразно провести преобразование. Проведем преобразования Бокса-Кокса Возьмём \(\lambda=0.2\)

Поcтроение моделей:

Модель 1

Сперва построим модель, использую все переменные.

## 
## Call:
## lm(formula = dependentVar ~ ., data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2386.37  -487.65   -78.58   481.57  2546.35 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          2.504e+03  6.633e+01  37.754  < 2e-16 ***
## population           4.937e-03  6.049e-04   8.162 7.02e-15 ***
## NumImmig            -8.219e-03  1.090e-03  -7.538 4.65e-13 ***
## HousVacant          -6.865e-03  1.072e-02  -0.641   0.5222    
## NumInShelters        2.798e-01  1.259e-01   2.223   0.0269 *  
## LemasTotalReq        9.171e-04  1.973e-04   4.647 4.86e-06 ***
## LemasSwFTFieldOps   -1.571e+00  2.339e-01  -6.718 8.08e-11 ***
## OfficAssgnDrugUnits -2.100e+00  1.664e+00  -1.262   0.2079    
## PctUsePubTrans       3.312e+01  6.306e+00   5.253 2.69e-07 ***
## PolicCars            1.747e+00  3.491e-01   5.005 9.11e-07 ***
## PolicOperBudg        5.264e-06  2.337e-06   2.252   0.0250 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 720.7 on 330 degrees of freedom
## Multiple R-squared:  0.7232, Adjusted R-squared:  0.7148 
## F-statistic:  86.2 on 10 and 330 DF,  p-value: < 2.2e-16

Её остатки:

Критерий p
Шапиро-Уилка 0.0540833
Уилкоксона 0.7245358
Бройша-Пагана 0.055987

Визуализация

Модель 2

Заметим, что по многим переменным имеются выбросы, попробуеми их удалить и заного построить модель.

## 
## Call:
## lm(formula = dependentVar ~ ., data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2058.79  -338.95   -49.07   302.38  1361.49 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.877e+03  8.445e+01  22.224  < 2e-16 ***
## population           5.327e-03  1.223e-03   4.357 1.91e-05 ***
## NumImmig             2.693e-02  4.748e-03   5.672 3.83e-08 ***
## HousVacant           4.952e-02  2.134e-02   2.321   0.0211 *  
## NumInShelters        1.389e-01  2.585e-01   0.537   0.5916    
## LemasTotalReq        6.024e-04  5.809e-04   1.037   0.3007    
## LemasSwFTFieldOps    1.609e+00  8.481e-01   1.897   0.0590 .  
## OfficAssgnDrugUnits  7.700e-01  3.139e+00   0.245   0.8065    
## PctUsePubTrans       9.026e+00  6.524e+00   1.383   0.1677    
## PolicCars           -3.591e-01  7.616e-01  -0.472   0.6377    
## PolicOperBudg       -1.019e-05  8.926e-06  -1.142   0.2545    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 497 on 254 degrees of freedom
## Multiple R-squared:  0.5339, Adjusted R-squared:  0.5155 
## F-statistic: 29.09 on 10 and 254 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = dependentVar ~ ., data = data)
## 
## Coefficients:
##                                  p_adj     
## (Intercept)           1.877e+03   0.000e+00
## population            5.327e-03   2.125e-04
## NumImmig              2.693e-02   3.686e-07
## HousVacant            4.952e-02   1.941e-01
## NumInShelters         1.389e-01   9.998e-01
## LemasTotalReq         6.024e-04   9.656e-01
## LemasSwFTFieldOps     1.609e+00   4.482e-01
## OfficAssgnDrugUnits   7.700e-01   1.000e+00
## PctUsePubTrans        9.026e+00   8.250e-01
## PolicCars            -3.591e-01   9.999e-01
## PolicOperBudg        -1.019e-05   9.372e-01

некоторые коэффициенты существенно изменились, следовательно, удаление влиятельных наблюдений имело смысл. Её остатки:

Критерий p
Шапиро-Уилка 0.028632
Уилкоксона 0.7952945
Бройша-Пагана 0.3395547

Гипотеза о нормальности остатков не отвергается. Остатки несмещены. Гипотеза о гомоскедастичности не отвергается.

Визуализация

Проверим какие взаимодействия между переменными могут улучшить модель

## Single term additions
## 
## Model:
## dependentVar ~ population + NumImmig + HousVacant + NumInShelters + 
##     LemasTotalReq + LemasSwFTFieldOps + OfficAssgnDrugUnits + 
##     PctUsePubTrans + PolicCars + PolicOperBudg
##                                       Df Sum of Sq      RSS    AIC F value
## <none>                                             62735502 3301.3        
## population:NumImmig                    1   2087797 60647706 3294.3  8.7095
## population:HousVacant                  1   3236015 59499487 3289.3 13.7600
## population:NumInShelters               1     35550 62699952 3303.1  0.1434
## population:LemasTotalReq               1   1856758 60878744 3295.3  7.7163
## population:LemasSwFTFieldOps           1   2512582 60222920 3292.5 10.5555
## population:OfficAssgnDrugUnits         1   1149208 61586294 3298.4  4.7210
## population:PctUsePubTrans              1    188683 62546819 3302.5  0.7632
## population:PolicCars                   1    224716 62510786 3302.3  0.9095
## population:PolicOperBudg               1   1062402 61673100 3298.8  4.3583
## NumImmig:HousVacant                    1   1862350 60873152 3295.3  7.7403
## NumImmig:NumInShelters                 1    190033 62545469 3302.5  0.7687
## NumImmig:LemasTotalReq                 1    300140 62435362 3302.0  1.2162
## NumImmig:LemasSwFTFieldOps             1    908577 61826925 3299.4  3.7180
## NumImmig:OfficAssgnDrugUnits           1     99643 62635859 3302.9  0.4025
## NumImmig:PctUsePubTrans                1    763728 61971774 3300.1  3.1179
## NumImmig:PolicCars                     1    191725 62543777 3302.5  0.7756
## NumImmig:PolicOperBudg                 1     74527 62660975 3303.0  0.3009
## HousVacant:NumInShelters               1     11888 62723614 3303.2  0.0480
## HousVacant:LemasTotalReq               1   2970179 59765323 3290.4 12.5734
## HousVacant:LemasSwFTFieldOps           1   3769454 58966048 3286.9 16.1732
## HousVacant:OfficAssgnDrugUnits         1   1414942 61320560 3297.3  5.8379
## HousVacant:PctUsePubTrans              1    956937 61778565 3299.2  3.9189
## HousVacant:PolicCars                   1   1206942 61528560 3298.1  4.9628
## HousVacant:PolicOperBudg               1   1877639 60857863 3295.2  7.8058
## NumInShelters:LemasTotalReq            1    349317 62386185 3301.8  1.4166
## NumInShelters:LemasSwFTFieldOps        1    418917 62316585 3301.5  1.7008
## NumInShelters:OfficAssgnDrugUnits      1     36752 62698750 3303.1  0.1483
## NumInShelters:PctUsePubTrans           1     30808 62704694 3303.2  0.1243
## NumInShelters:PolicCars                1    525858 62209644 3301.1  2.1386
## NumInShelters:PolicOperBudg            1     63229 62672273 3303.0  0.2552
## LemasTotalReq:LemasSwFTFieldOps        1    797704 61937798 3299.9  3.2584
## LemasTotalReq:OfficAssgnDrugUnits      1    660922 62074580 3300.5  2.6937
## LemasTotalReq:PctUsePubTrans           1    746385 61989117 3300.1  3.0463
## LemasTotalReq:PolicCars                1    146321 62589181 3302.7  0.5915
## LemasTotalReq:PolicOperBudg            1    424592 62310910 3301.5  1.7240
## LemasSwFTFieldOps:OfficAssgnDrugUnits  1   1420608 61314894 3297.2  5.8618
## LemasSwFTFieldOps:PctUsePubTrans       1    405876 62329626 3301.6  1.6475
## LemasSwFTFieldOps:PolicCars            1    484151 62251351 3301.2  1.9677
## LemasSwFTFieldOps:PolicOperBudg        1    399014 62336488 3301.6  1.6194
## OfficAssgnDrugUnits:PctUsePubTrans     1    167967 62567535 3302.6  0.6792
## OfficAssgnDrugUnits:PolicCars          1    719084 62016418 3300.2  2.9335
## OfficAssgnDrugUnits:PolicOperBudg      1    564477 62171025 3300.9  2.2971
## PctUsePubTrans:PolicCars               1   1837878 60897624 3295.4  7.6355
## PctUsePubTrans:PolicOperBudg           1     33389 62702113 3303.2  0.1347
## PolicCars:PolicOperBudg                1     88606 62646896 3302.9  0.3578
##                                          Pr(>F)    
## <none>                                             
## population:NumImmig                   0.0034626 ** 
## population:HousVacant                 0.0002553 ***
## population:NumInShelters              0.7051944    
## population:LemasTotalReq              0.0058823 ** 
## population:LemasSwFTFieldOps          0.0013153 ** 
## population:OfficAssgnDrugUnits        0.0307246 *  
## population:PctUsePubTrans             0.3831518    
## population:PolicCars                  0.3411595    
## population:PolicOperBudg              0.0378304 *  
## NumImmig:HousVacant                   0.0058071 ** 
## NumImmig:NumInShelters                0.3814527    
## NumImmig:LemasTotalReq                0.2711507    
## NumImmig:LemasSwFTFieldOps            0.0549491 .  
## NumImmig:OfficAssgnDrugUnits          0.5263839    
## NumImmig:PctUsePubTrans               0.0786415 .  
## NumImmig:PolicCars                    0.3793389    
## NumImmig:PolicOperBudg                0.5837957    
## HousVacant:NumInShelters              0.8268452    
## HousVacant:LemasTotalReq              0.0004660 ***
## HousVacant:LemasSwFTFieldOps          7.635e-05 ***
## HousVacant:OfficAssgnDrugUnits        0.0163937 *  
## HousVacant:PctUsePubTrans             0.0488294 *  
## HousVacant:PolicCars                  0.0267774 *  
## HousVacant:PolicOperBudg              0.0056064 ** 
## NumInShelters:LemasTotalReq           0.2350770    
## NumInShelters:LemasSwFTFieldOps       0.1933729    
## NumInShelters:OfficAssgnDrugUnits     0.7004866    
## NumInShelters:PctUsePubTrans          0.7247068    
## NumInShelters:PolicCars               0.1448732    
## NumInShelters:PolicOperBudg           0.6138434    
## LemasTotalReq:LemasSwFTFieldOps       0.0722466 .  
## LemasTotalReq:OfficAssgnDrugUnits     0.1019852    
## LemasTotalReq:PctUsePubTrans          0.0821370 .  
## LemasTotalReq:PolicCars               0.4425717    
## LemasTotalReq:PolicOperBudg           0.1903730    
## LemasSwFTFieldOps:OfficAssgnDrugUnits 0.0161775 *  
## LemasSwFTFieldOps:PctUsePubTrans      0.2004773    
## LemasSwFTFieldOps:PolicCars           0.1619211    
## LemasSwFTFieldOps:PolicOperBudg       0.2043371    
## OfficAssgnDrugUnits:PctUsePubTrans    0.4106397    
## OfficAssgnDrugUnits:PolicCars         0.0879817 .  
## OfficAssgnDrugUnits:PolicOperBudg     0.1308646    
## PctUsePubTrans:PolicCars              0.0061435 ** 
## PctUsePubTrans:PolicOperBudg          0.7138918    
## PolicCars:PolicOperBudg               0.5502456    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Модель 3

Добавим взаимодействие насление и свободное жилье

## 
## Call:
## lm(formula = dependentVar ~ population + NumImmig + HousVacant + 
##     NumInShelters + LemasTotalReq + LemasSwFTFieldOps + OfficAssgnDrugUnits + 
##     PctUsePubTrans + PolicCars + PolicOperBudg + population * 
##     HousVacant, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2030.79  -324.66   -27.78   288.63  1291.06 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            1.524e+03  1.259e+02  12.098  < 2e-16 ***
## population             9.233e-03  1.591e-03   5.803 1.95e-08 ***
## NumImmig               2.306e-02  4.749e-03   4.856 2.10e-06 ***
## HousVacant             1.521e-01  3.461e-02   4.394 1.64e-05 ***
## NumInShelters         -9.802e-02  2.602e-01  -0.377 0.706672    
## LemasTotalReq          9.773e-04  5.758e-04   1.697 0.090886 .  
## LemasSwFTFieldOps      1.371e+00  8.301e-01   1.651 0.099943 .  
## OfficAssgnDrugUnits    1.030e-02  3.070e+00   0.003 0.997325    
## PctUsePubTrans         1.470e+01  6.547e+00   2.245 0.025635 *  
## PolicCars             -3.843e-01  7.432e-01  -0.517 0.605580    
## PolicOperBudg         -7.249e-06  8.746e-06  -0.829 0.407994    
## population:HousVacant -8.391e-07  2.262e-07  -3.709 0.000255 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 484.9 on 253 degrees of freedom
## Multiple R-squared:  0.5579, Adjusted R-squared:  0.5387 
## F-statistic: 29.03 on 11 and 253 DF,  p-value: < 2.2e-16

Значимость коэффициентов с поправкой на множественность

## 
## Call:
## lm(formula = dependentVar ~ population + NumImmig + HousVacant + 
##     NumInShelters + LemasTotalReq + LemasSwFTFieldOps + OfficAssgnDrugUnits + 
##     PctUsePubTrans + PolicCars + PolicOperBudg + population * 
##     HousVacant, data = data)
## 
## Coefficients:
##                                    p_adj     
## (Intercept)             1.524e+03   0.000e+00
## population              9.233e-03   1.663e-07
## NumImmig                2.306e-02   2.488e-05
## HousVacant              1.521e-01   1.746e-04
## NumInShelters          -9.802e-02   1.000e+00
## LemasTotalReq           9.773e-04   5.999e-01
## LemasSwFTFieldOps       1.371e+00   6.353e-01
## OfficAssgnDrugUnits     1.030e-02   1.000e+00
## PctUsePubTrans          1.470e+01   2.315e-01
## PolicCars              -3.843e-01   9.999e-01
## PolicOperBudg          -7.249e-06   9.930e-01
## population:HousVacant  -8.391e-07   2.813e-03

Остатки модели:

Критерий p
Шапиро-Уилка 0.0310702
Уилкоксона 0.7792773
Бройша-Пагана 0.483474

Гипотеза о нормальности остатков не отвергается. Остатки несмещены. Гипотеза о гомоскедастичности не отвергается.

Сравним с предыдущей моделью по критерию Фишера

## Analysis of Variance Table
## 
## Model 1: dependentVar ~ population + NumImmig + HousVacant + NumInShelters + 
##     LemasTotalReq + LemasSwFTFieldOps + OfficAssgnDrugUnits + 
##     PctUsePubTrans + PolicCars + PolicOperBudg
## Model 2: dependentVar ~ population + NumImmig + HousVacant + NumInShelters + 
##     LemasTotalReq + LemasSwFTFieldOps + OfficAssgnDrugUnits + 
##     PctUsePubTrans + PolicCars + PolicOperBudg + population * 
##     HousVacant
##   Res.Df      RSS Df Sum of Sq     F    Pr(>F)    
## 1    254 62735502                                 
## 2    253 59499487  1   3236015 13.76 0.0002553 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Модель 3 получилась сушественно лучше модели 2

Визуализация

Значимыми переменными являются population, NumImmig, HousVacant, PctUsePubTrans, population:HousVacant

Модель 4

Посроим модель используя только эти признаки

## 
## Call:
## lm(formula = dependentVar ~ population + NumImmig + HousVacant + 
##     PctUsePubTrans + population * HousVacant, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2037.00  -347.35    -2.03   309.30  1267.62 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            1.570e+03  1.165e+02  13.476  < 2e-16 ***
## population             1.012e-02  1.400e-03   7.234 5.31e-12 ***
## NumImmig               2.197e-02  4.271e-03   5.144 5.32e-07 ***
## HousVacant             1.655e-01  3.321e-02   4.984 1.14e-06 ***
## PctUsePubTrans         1.788e+01  5.902e+00   3.030 0.002694 ** 
## population:HousVacant -8.176e-07  2.152e-07  -3.799 0.000181 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 487.6 on 259 degrees of freedom
## Multiple R-squared:  0.5424, Adjusted R-squared:  0.5336 
## F-statistic: 61.41 on 5 and 259 DF,  p-value: < 2.2e-16

Остатки модели:

Критерий p
Шапиро-Уилка 0.0382724
Уилкоксона 0.8020976
Бройша-Пагана 0.410988

Гипотеза о нормальности остатков не отвергается. Остатки несмещены. Гипотеза о гомоскедастичности не отвергается.

Сравним с предыдущей моделью по критерию Фишера

## Analysis of Variance Table
## 
## Model 1: dependentVar ~ population + NumImmig + HousVacant + NumInShelters + 
##     LemasTotalReq + LemasSwFTFieldOps + OfficAssgnDrugUnits + 
##     PctUsePubTrans + PolicCars + PolicOperBudg + population * 
##     HousVacant
## Model 2: dependentVar ~ population + NumImmig + HousVacant + PctUsePubTrans + 
##     population * HousVacant
##   Res.Df      RSS Df Sum of Sq      F Pr(>F)
## 1    253 59499487                           
## 2    259 61584098 -6  -2084611 1.4773 0.1863

Модель 4 не хуже модели 3

Значимость коэффициентов с поправкой на множественность

mvtmult(m3)
## 
## Call:
## lm(formula = dependentVar ~ population + NumImmig + HousVacant + 
##     PctUsePubTrans + population * HousVacant, data = data)
## 
## Coefficients:
##                                    p_adj     
## (Intercept)             1.570e+03   0.000e+00
## population              1.012e-02   1.401e-11
## NumImmig                2.197e-02   2.747e-06
## HousVacant              1.655e-01   5.008e-06
## PctUsePubTrans          1.788e+01   1.332e-02
## population:HousVacant  -8.176e-07   9.942e-04

Визуализация

Модель 5

Попробуем удалить наблюдения с растоянием Кука больше .015

## 
## Call:
## lm(formula = dependentVar ~ population + NumImmig + HousVacant + 
##     LemasSwFTFieldOps + PctUsePubTrans + population * HousVacant, 
##     data = data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -907.99 -321.74  -31.42  265.53 1005.58 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            1.715e+03  1.134e+02  15.127  < 2e-16 ***
## population             6.637e-03  1.486e-03   4.466 1.23e-05 ***
## NumImmig               2.913e-02  3.867e-03   7.532 1.00e-12 ***
## HousVacant             1.379e-01  3.259e-02   4.230 3.32e-05 ***
## LemasSwFTFieldOps      1.390e+00  5.475e-01   2.538  0.01178 *  
## PctUsePubTrans         1.159e+00  5.989e+00   0.194  0.84670    
## population:HousVacant -6.667e-07  2.186e-07  -3.050  0.00255 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 415.4 on 241 degrees of freedom
## Multiple R-squared:  0.5784, Adjusted R-squared:  0.5679 
## F-statistic:  55.1 on 6 and 241 DF,  p-value: < 2.2e-16
## Warning in cbind(coefficients(m3), coefficients(m4)): number of rows of
## result is not a multiple of vector length (arg 1)
##                            All data Filtered data
## (Intercept)            1.569716e+03  1.714741e+03
## population             1.012375e-02  6.636854e-03
## NumImmig               2.196978e-02  2.912944e-02
## HousVacant             1.655380e-01  1.378515e-01
## LemasSwFTFieldOps      1.788242e+01  1.389577e+00
## PctUsePubTrans        -8.175519e-07  1.159126e+00
## population:HousVacant  1.569716e+03 -6.666708e-07

некоторые коэффициенты существенно изменились, следовательно, удаление влиятельных наблюдений имело смысл.

Остатки модели:

Критерий p
Шапиро-Уилка 0.0156852
Уилкоксона 0.661902
Бройша-Пагана 0.6248879

Гипотеза о нормальности остатков не отвергается. Остатки несмещены. Гипотеза о гомоскедастичности не отвергается.

Значимость коэффициентов с поправкой на множественность

## 
## Call:
## lm(formula = dependentVar ~ population + NumImmig + HousVacant + 
##     LemasSwFTFieldOps + PctUsePubTrans + population * HousVacant, 
##     data = data1)
## 
## Coefficients:
##                                    p_adj     
## (Intercept)             1.715e+03   0.000e+00
## population              6.637e-03   5.386e-05
## NumImmig                2.913e-02   2.529e-12
## HousVacant              1.379e-01   1.540e-04
## LemasSwFTFieldOps       1.390e+00   6.453e-02
## PctUsePubTrans          1.159e+00   1.000e+00
## population:HousVacant  -6.667e-07   1.490e-02

Визуализация

Необходимсоти добавлять квадраты переменных не наблюдается, остановимся на этой модели

Результат

Итоговая модель (№5) объясняет 58% вариации преобразования Бокса-Кокса отклика:

Итоговая модель

Выводы

В работе проведен отбор признаков с учетом поправки на множественность. Учтены степени количественных признаков и перекрестные произведения признаков. Все модели, которые были построены в ходе эксперимента, имели остатки, для которых гипотезы нормальности, гомоскедастичности и несмешенности НЕ отвергались. Модель построена по преобразованной переменной, что позволило удовлетворить предположению нормальности. Модель построена не по полной выборке, в ходе работы было удалено множество выбросов. В итоговую модель включены следующие количественные признаки:

  1. population - Население в районе

  2. NumImmig - количество иммигрантов

  3. HousVacant - количество свободного жилья

  4. LemasSwFTFieldOps - число полицейских работающих на улицах

  5. PctUsePubTrans - количество использования публичного транспорта на душу населения

Все эти переменные имеют достаточно естественную интепретацию: при фиксировании всех регрессоров, кроме одного из вышеперечисленных при увеличении нефиксируемого на 1 значение целевой функции меняется на коэффициент при нефиксированной переменной, все коэффициенты и доверительные интервалы приведены ниже.

Так же в модель включено взаимодействие населения и свободного жилья, при увеличении населения, количество свободного жилья характерно уменьшается и наоборот.

##            population              NumImmig            HousVacant 
##          6.636854e-03          2.912944e-02          1.378515e-01 
##     LemasSwFTFieldOps        PctUsePubTrans population:HousVacant 
##          1.389577e+00          1.159126e+00         -6.666708e-07
##                               2.5 %        97.5 %
## population             3.709455e-03  9.564254e-03
## NumImmig               2.151121e-02  3.674767e-02
## HousVacant             7.365469e-02  2.020483e-01
## LemasSwFTFieldOps      3.110617e-01  2.468092e+00
## PctUsePubTrans        -1.063835e+01  1.295660e+01
## population:HousVacant -1.097260e-06 -2.360819e-07